L'evoluzione del NLP rappresenta una trasformazione fondamentale dal trattare il linguaggio come simboli discreti e isolati all'assegnazione di un'immagine continua in uno spazio vettoriale multidimensionale. Abbiamo superato le rappresentazioni semplici rappresentazioni basate su caratteristiche per arrivare a mappe semantiche profonde.
Il Cambiamento nella Rappresentazione
- L'EtΓ Statistica (Rara): L'NLP precoce si basava sull'algoritmo TF-IDF. Sebbene efficace per la ricerca, soffre della "maledizione della raritΓ ". In un sistema TF-IDF, "Medico" e "Dottore" sono vettori ortogonali β matematicamente, non hanno alcun rapporto tra loro.
- La Rivoluzione Distribuita (NNLM e Word2Vec): I modelli linguistici basati su reti neurali hanno introdotto vettori densi. Word2Vec (Skip-gram/CBOW) impara che le parole che appaiono in contesti simili dovrebbero essere vicine nello spazio.
- Statistiche Globali (GloVe): I vettori globali colmano il divario analizzando la co-occorrenza globale in tutto il corpus, garantendo che la distanza rifletta la somiglianza semantica matematica.
Approfondimento
Il passaggio dal contare le occorrenze alla previsione del contesto permette ai modelli di catturare sfumature. Questa "Rappresentazione Distribuita" significa che il significato di una parola Γ¨ distribuito su centinaia di dimensioni vettoriali, ognuna delle quali potrebbe rappresentare una caratteristica semantica latente come genere, regalitΓ o contesto medico.